1
Di Luar Kata-Kata: Memahami Tokenisasi dan Uji Permen
AI010Lesson 3
00:00

Arsitektur Tersembunyi dari Bahasa

Model Bahasa Besar (LLM) tidak 'membaca' teks seperti manusia. Sementara kita melihat huruf dan kata-kata, model memproses informasi dalam bagian numerik yang disebut Token. Memahami abstraksi ini adalah langkah pertama menuju menguasai rekayasa prompt dan desain sistem.

Uji Permen

Mengapa LLM kesulitan membalikkan huruf-huruf dalam kata "lollipop" tetapi berhasil seketika saat diminta membalikkan "l-o-l-l-i-p-o-p"?

  • Masalahnya:Dalam kata standar, model hanya melihat satu token yang mewakili seluruh kata. Model tidak memiliki peta jelas tentang huruf-huruf individu di dalam token tersebut.
  • Solusinya:Dengan memisahkan kata menggunakan tanda hubung, Anda memaksa model untuk mengubah setiap huruf menjadi token terpisah, memberikan 'penglihatan' yang sangat detail yang diperlukan untuk menyelesaikan tugas ini.

Prinsip Utama

  • Rasio Token:Sebagai aturan umum, 1 token kira-kira setara dengan 4 karakter dalam bahasa Inggris, atau sekitar 0,75 dari sebuah kata.
  • Jendela Konteks:Model memiliki ukuran 'memori' tetap (misalnya, 4096 token). Batas ini mencakup instruksi Anda dan jawaban dari model.
Dasar vs. Disesuaikan dengan Instruksi
  • LLM Dasar:Memperkirakan kata berikutnya yang paling mungkin berdasarkan dataset besar (contoh: "Apa ibukota Prancis?" bisa diikuti oleh "Apa ibukota Jerman?").
  • LLM yang Disesuaikan dengan Instruksi:Disempurnakan melalui Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) agar dapat mengikuti perintah tertentu dan bertindak sebagai asisten.
token_counter.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?
A) 3,000 tokens
B) 750 tokens
C) 12,000 tokens
Question 2
Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?
A) It is faster at generating text.
B) It uses fewer tokens.
C) It is trained to follow specific tasks and dialogue formats.
Challenge: Token Estimation
Apply the token ratio rule to a real-world scenario.
You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.
Step 1
Estimate the number of tokens for a single daily report.
Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Step 2
Calculate the estimated cost to process one daily report.
Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$